Dream Machine：从视频理解 3D｜Luma AI 首席科学家宋佳铭亲述

Original 奇绩创坛奇绩创坛

2024-10-10

作为 Luma AI 首席科学家和最早扩散模型加速算法的创建者，「宋佳铭 Jiaming Song 」在奇绩潜空间中分享了他对于微调视频模型以实现 4D 内容生成的探索思路，并通过讲解 Luma AI 在视频生成模型 Dream Machine 上的探索，说明了模型可以从视频数据中学到大量关键的三维特性。

本文整理了宋佳铭个人分享的精选内容，旨在为相关领域的创业者带来关于视频生成模型以及 4D 模型未来发展趋势的新思考。以下是本文提纲：

1. Dream Machine 的研究背景与动机

实现 4D 生成的可行方式：微调视频模型
传统的 3D 管线面临的难点：三维数据匮乏

2. 关于视频模型的探索

模型可以从视频数据中学习的关键特性：深度、光线追踪、动态的捕捉、镜头切换

3. 视频模型现存的问题

物体形状或移动状态突变
快速移动场景中的多头问题

4. 更多关于视频生成以及 3D 领域的新观察和新认知

「奇绩潜空间」欢迎大模型时代创业者、科研学者、高校学生来现场面对面交流，此外我们创建了「大模型视频生成」等创业者交流群，添加小助手加入群聊以及获取更多奇绩潜空间往期内容。

﹀

正文

Dream Machine 的研究背景与动机

Luma AI 被广泛认为是一家专注 3D 领域的公司，但在今年 6 月 12 日发布了视频生成模型 Dream Machine，受到了广泛关注。为什么会做视频模型？

从事 3D 工作的目的不仅仅是为了 3D 本身，我们的目标是想要做 4D。在一些应用场景中，比如游戏、电影或者元宇宙，没有人会想看一个静态不动的 3D 素材，大家更想看的是动态的、能够交互的 4D 内容。

而要实现 4D，目前有两条路径。一是生成 3D 内容，再想办法加入时间维度，使 3D 变成 4D。另一个是先制作视频，然后通过多视角微调，再将微调的内容转换成 4D 输出。

从第一个方案来看，有两个问题。一方面，我们在做 3D 领域的探索时发现传统的 3D 管线面临一些较难解决的问题。另一方面，学术界已经尝试解决从 3D 到 4D 这个问题很多年了，我们认为这方面很难有迅速的突破。

具体而言，传统的 3D 管线面临的难点是什么？

我们最早做一些与 3D 重构相关的工作。比如，利用 Gaussian Splatting（高斯散射）做场景生成，通过采集多视角视频或图片，构建出一个可以 3D 交互的场景。同时，我们也进行了一些三维生成的探索，比如文字生成 3D 的功能。在做这些方案时，我们逐渐意识到 3D 数据存在可扩展的问题。

首先，现有 3D 数据集规模较小。目前已知采集量最大的三维数据集 Objaverse-XL，1000 万已经是上限。并且它的质量非常不好，实际能使用的远少于 1000 万。尽管领域里有人也在做一些类似三维重构方向的工作，从物体的多模态的角度收集数据。比如有一个项目针对数十万种场景采集了物体 360 度环绕的视频。但总的来说，三维相关的数据都仅处于百万量级，与图片或视频数据的数十亿量级相比，差距仍然很大。

其次，可用于 NeRF、Gaussian Splatting 或其他方案的三维数据也比较难制造。如果目标是做更好的模拟，涉及材质、动作和物理层面的数据，收集难度将进一步增加。要对更复杂的问题进行建模，例如目标是从三维扩展到四维，在三维基础上加入时间维度，则会遇到更多问题。

业界目前是如何解决这些问题的？

为了解决这些问题，去年已经有部分研究开始尝试不将 3D 视为从零到有的学习任务，而是将三维任务视为二维生成的下游任务。比如可以基于提前预训练好的图像扩散模型，将其下游微调成能同时生成多个视角的模型。

简单举例，我们首先拥有“2×2”四个视角的图片，然后利用四个视角的图片进行三维重构，得到对应的三维表达特征。同样，可以利用已有的 2D 扩散模型，将其下游微调为多视角模型，进而用来做三维模型。

实际上也是基于此，我们有了进一步思考，如果 3D 模型是对 2D 模型做微调，那么要实现 4D，三维加上动作，是否也可以通过微调视频模型实现呢？

所以从这个角度来看，我们做视频模型的动机就比较明确了。也就是，我们认为第二个方案，从视频到 4D 是可行的。很多学术界的人也有类似的观点，实际上已经出现了大量相关工作和演示。

关于 Dream Machine 的探索：从视频数据中学习关键三维特性

在做视频生成模型的过程中，做了哪些和 3D 有关的探索？

我们进行了一些简单的尝试，看能不能将文生图的图片输入给 Dream Machine 转成视频，再进一步将视频变成对应的可交互的三维场景。这样的场景在我们的平台上已经实现。

另外，如果大家对 NeRF 或 Gaussian Splatting（高斯散射）有了解，我们也在相应的数据集上做了从图片到视频转换的尝试。比如在常见的三维重构任务上，也可以做一些有意思的多视角生成。

实际上，从 Dream Machine 生成的视频案例中，我们观察到，模型在三维的理解或表达上出现了一些有趣的现象。例如，可以通过视角转换，如前进或旋转，来体现传统三维重建、生成或图像生成模型难以实现的三维特性。同时，模型可以从视频数据中学到很多关键特征，这些都是聚焦 3D 领域的学者和创业者普遍关注的问题。

具体而言，模型能够学习到何种关键特征？

我们发现，模型在深度、光线追踪、动态的捕捉、镜头切换前后物体/角色形象一致性等方面有较好的理解。同时，它甚至能识别一些难以用物理定律解释的规律，比如不同镜头切换前后场景的因果关系。

深度

首先，视频模型对深度有较好的理解，即图像中的像素点离摄像头的远近。这对 3D 重构或图形学渲染都是一项重要任务。例如，如果存在前景物体，模型能识别出该物体离镜头更近，在镜头切换时，前景物体的移动速度会和背景有所不同。

另外，有趣的点是，模型对抽象的图片或场景也能产生直观的理解，并不一定满足物理定律。比如给定一个马戏团旋转木马的场景，它能够识别出旋转木马中心距离镜头较远，并呈现出木马绕中心旋转的运动效果。

当然，由于场景本身是抽象的，并不能完全说明这是一个在物理意义上是准确的模型。但是，这些特征可以帮助我们创造一些有镜头感的内容。与传统的 3D 重建相比，它甚至可以加入动作元素。例如，镜头移动产生的深度效果不仅可以体现在多视角生成上，如果视频中涉及人物的正面，跟随镜头移动，人物的目光也会有所调整。

Light Transport 光线追踪

其次，模型可以学习到大量与光线表现相关的内容，如反射、折射，以及对景深和镜头移动的理解。

例如，当生成的视频中包含一个戴眼镜的人物，随着镜头转动，可以看到眼镜上的内容并非简单的色块叠加，而是真实模拟人物戴眼镜在不同角度下透过不同光线的效果。同时，眼镜的形态也是完整的，而非传统意义上的简单图层叠加。

在我们的平台上还有两个比较经典的例子。一个例子是玩具熊泡在海水里，使水面产生了波纹和反射。伴随玩具熊上下浮动，反射会随着波纹移动，展示出水面动态变化的复杂性。想要利用传统图形学管线做到这样的效果是较困难的，可能需要做流体的模拟，以及复杂物理系统的模拟或仿真。

另一个是咖啡机展示的视频。针对这个场景，如果基于 NeRF 来重建三维状态，要想得到较好的效果，可能需要采集 100 张图片或拍 100 帧视频。同时，这种方法并不完美，不同视角的渲染可能不够真实。而使用视频模型，用一张图片，已经可以渲染出相对不错的多视角理解。当然，虽然随着时间推移效果可能略有下降，但整体上三维一致性或物体一致性仍然保持不错。此外，生成的视频无论是对钢铁材质的模拟，还是随视角转换光线在材质上反射效果的变化方面，都有较好的表现。

Dynamic 动态

模型也可以通过视频学到一些动感的场景。场景里可以有不同的动态内容，比如镜头的动态、物体的动态。另外，在一些情况下，生成的视频可以给人带来更多真实的动态感，直观表现为画面中物体的运动更加自然。如果想利用传统 3D 管线重现这样的效果，可能需要对该物体的 3D 做大量建模，再用其他的方案添加必要的动作。

Causality/Cuts 镜头切换

最后，镜头切换本身也是可以学到的特性。一方面，在前后场景之间的切换中，角色形象的一致性可以得到保持；另一方面，模型不仅能捕捉到物理世界的规律，也能识别一些难以用物理定律解释的规律，比如因果。目前我们对令人惊讶或害怕的场景产生的情感反应，可能没有很好的物理解释方式，但模型可以并不完全通过物理或者先验的方式，学习到不同镜头之间的因果关系。

另外，在抽象或虚构的风格中，模型也能够学习到光学效果，比如镜子、玻璃后的折射效果，都能显示出对场景和故事一致性的理解能力。

Dream Machine 模型现存的问题

目前视频模型存在什么问题？

尽管模型显示出了三维的理解或表达能力，但目前并不完美，还有很多改进空间。具体而言，目前模型存在两个主要的问题。

物体形状或移动状态突变

首先，有时模型可能无法完全遵循物理原则来还原真实场景，会突然出现不符合逻辑的现象。比如模型在生成某个物体的视频中，初期内容处理得相当不错，包括物体在场景中的光影和材质表现。但在某一帧中，物体突然出现变形和奇怪的移动状态。我们认为这种突变的出现，可能是由于模型在处理场景切换时，将其误解为场景的一部分。

要改进这些问题，可能需要探索更精确的镜头控制方案。目前，模型对于镜头控制，尤其是视角拟合还不够精确，导致生成的图像与预期的镜头效果有所偏差。通过 prompt 调整并不能达到用户想要的镜头效果。

快速移动场景中的多头问题

此外，模型同样会出现目前视频生成领域常见的多头问题。即物体在快速移动时，可能会出现同一物体同时显示多个正面的情况，物体的结构或内容可能会变得不够清晰。

但是，尽管存在这些问题，视频模型在处理 3D 生成相关任务时仍显示出了强大的能力，甚至能够完成一些传统 3D 管线难以实现的任务。

同时，我们接下来对 4D 模型有更多的展望。比如之前提到的，我们希望通过对视频模型的进一步微调，生成 4D 场景。当然，这需要相应的数据支持，目前已经有研究正在尝试采集这类数据，例如从多个视角观察同一场景的任务。理论上，利用这类数据进行模型微调，可能是实现 4D 生成的途径。

扫描上方二维码收听现场对话

更多关于视频生成以及 3D 领域的新观察和新认知

除了上述宋佳铭亲述内容，在潜空间现场，奇绩创坛 Jack 以及现场观众还与宋佳铭围绕视频生成以及 3D 领域发展的新观察和新认知进行了探讨。以下是部分问题目录：

1. 从 Diffusion 诞生到现在，视频生成领域有哪些重要的里程碑，以及这些里程碑发生的背后逻辑或动机是什么？

2. 目前主流的研究者在进行视频理解和视频生成时，分别采用了什么样的技术路径？

3. 从人和自然的角度，理解和生成是如何被分开的？其背后的机制是否相同？

4. 在理解层面，多模态模型有 Late Fusion 和 Early Fusion 两条路径。你怎么看这两件事情在不同的场景下的区别，它们的优势和劣势是什么？

5. 无论是 Early Fusion 还是目前使用的 DIT，大家都在期待 Auto-regressive 和 Diffusion 能更好地结合，你认为接下来的发展趋势是什么？

6. DIT 的 scale 大概什么时候能出现？DIT 的参数大概能够达到一个什么范围？

7. 关于 4D 数据的收集，目前有用到模拟器合成数据吗？在自动驾驶领域，这类数据的重要性与其他领域有何不同？

8. 明年下半年，如果要生成一段 1080P、30 秒的视频，所需的时间和成本可能是怎样的？那时的视频质量能否达到完全逼真的程度？

9. 靠视频数据和视频生成模型，能够在美术风格意义上真正的泛化吗？靠视频 Scaling Law 是否能够解决？还是必须进行微调？

10. 你当时做 Diffusion 加速的时候，灵感来源于什么？

感兴趣的小伙伴，可以继续扫描二维码阅读完整文档。

【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区，我们定期邀请大模型前沿创业者分享产品实践探索，如杨植麟、吕骋等，邀请前沿科研学者分享最新技术进展，如姚顺雨、蔡天乐等。

这周六（8 月 24 日）我们邀请到师从 Yann LeCun 教授和 Saining Xie 教授的纽约大学计算机科学院博士童晟邦与大家探讨以视觉为中心的多模态大模型。欢迎与身边的创业者共同参与，点击【阅读原文】或右侧链接报名。👉🏻活动报名 | 多模态大模型：以视觉为中心的探索

我们还创建了「大模型视频生成」「多模态大模型」等创业者交流群，添加小助手加入群聊以及获取更多奇绩潜空间往期内容。

加入 #奇绩创业社区#

扫描创业营二维码，提交奇绩创业营申请表，即可【免费】加入社区，【滑动】查看并免费领取创业社区独家资源：

左右滑动查看更多资源

继续滑动看下一个

奇绩创坛

向上滑动看下一个

看到辛瓦尔死前3天没吃任何东西，立即想到了杨靖宇

西班牙街头一幕！国王遭民众围攻

又一个特朗普时代！对美国、中国和世界的影响

今天，石狮这所小学向全市展示！

灯塔国的灯

Dream Machine：从视频理解 3D｜Luma AI 首席科学家宋佳铭亲述

关于 Dream Machine 的探索：从视频数据中学习关键三维特性

Dream Machine 模型现存的问题

您可能也对以下帖子感兴趣

看到辛瓦尔死前3天没吃任何东西，立即想到了杨靖宇

西班牙街头一幕！国王遭民众围攻

又一个特朗普时代！对美国、中国和世界的影响

今天，石狮这所小学向全市展示！

灯塔国的灯

生成图片，分享到微信朋友圈

Dream Machine：从视频理解 3D｜Luma AI 首席科学家宋佳铭亲述

关于 Dream Machine 的探索：从视频数据中学习关键三维特性

Dream Machine 模型现存的问题

您可能也对以下帖子感兴趣